查看原文
科技创新

自动驾驶十年:AI 大爆发、Transformer「登基」和特斯拉的 ChatGPT 时刻

308 42号车库 2023-06-28

2016 年 1 月的一天,黄仁勋拎了一个箱子,率领团队如约来到特斯拉位于加州的办公室,见到了马斯克。

这个箱子里,装的是英伟达的初代自动驾驶计算平台 DRIVE PX;把它带过来,是因为英伟达和特斯拉都希望验证一下它的实际能力。于是,马斯克用它跑了几遍当时 Autopilot 团队训练出来的一个神经网络模型,能跑起来,效果还挺满意。

然而,据一位曾参与上述会面的中国籍前英伟达工程师回忆,当时特斯拉的那个神经网络模型真的很烂,甚至比不上 Mobileye 基于纯规则做出来的效果。

以上就是自动驾驶在过去十年的发展过程中跨出的步履蹒跚的一个早期步伐,它一点都不惊世骇俗,也并不引人瞩目。

但如今,自动驾驶已经发生历史性巨变——它完全脱离了概念的范畴,开始在产品和商业维度上逐步走向大众群体,包括美国特斯拉和中国造车新势力在内的一系列车企,正在纷纷推进城市导航辅助驾驶功能的量产和商业落地。

事情的发展如此之快,以至于很容易让人恍惚:这一波自动驾驶,到底是如何一步步走到今天的。

01两次注定要分手的牵手

忙碌的 Andrej Karpathy

2012 年 9 月,25 岁的斯坦福大学博士生 Andrej Karpathy 格外地忙,忙得不可开交。

原因是,他的导师、著名的计算机科学家李飞飞教授正在组织本年度的 ImageNet 大规模视觉识别挑战(简称 ImageNet 竞赛)——作为计算机视觉领域最受关注的赛事之一,ImageNet 竞赛吸引了全球各国的顶级人工智能团队参与,因此每年竞赛期间,李飞飞和她的团队都是全员出动,全力投入。

作为李飞飞团队的一员,Andrej Karpathy 自然也要参与其中——于是,2012 年 10 月 5 日,Andrej Karpathy 早上六点半就在推特上公布了本次 ImageNet 竞赛的成绩。

成绩显示,2012 年度 ImageNet 竞赛的冠军是一个名为「SuperVision」的三人团队,他们在 ImageNet 的第一项「图像分类」任务中实现了低至 15.3% 的错误率,比第二名的 26.1% 低了 10.8%——可以说是「遥遥领先」。

有意思的是,这个获得冠军的 SuperVision 团队,与 Andrej Karpathy 颇有些渊源。

原来,SuperVision 团队的三位成员分别是著名的计算机科学家、被称为「深度学习之父」的 Geoffrey Hinton 教授和他的两个学生 Alex Krizhevsky、Ilya Sutskever(OpenAI 首席科学家,GPT 背后的核心人物),他们三人都来自于加拿大的多伦多大学。

非常巧合的是,Andrej Karpathy 本科期间就读的学校就是多伦多大学,而且他还曾经在 Geoffrey Hinton 教授的课堂听讲过深度学习——所以,Andrej Karpathy 对他们并不陌生,也非常自然地对他们在本次竞赛中发表的论文保持密切关注。

从内容来看,这篇标题为《ImageNet Classification with Deep Convolutional Neural Networks》的论文,主要介绍了 SuperVision 团队在参与 ImageNet 竞赛的过程中所采用的一个大型深度卷积神经网络(Deep Convolutional Neural Network)——其中还专门提到了训练该网络的一个重要硬件基础:2 块英伟达 GTX 580 3GB GPU。

这个大型深度卷积神经网络,后来拥有了一个更加为广为人知的名字:AlexNet。

那时候,Andrej Karpathy 已经开始感受到 AlexNet 的强大——他在推特上对竞赛结果的评价是:大型深度网络 + Dropout 算法 + GPU,展示出令人印象深刻的性能。

当然,他还没能像我们今天这样意识到 AlexNet 的重大意义,那就是:AlexNet 的问世和这篇论文的发布,掀起了计算机科学和 AI 领域的一场重大革命,也让卷积神经网络(CNN成为计算机视觉领域在很长一段时间里的核心模型——而深度学习也因此迎来了一场真正的大爆发,并且由此催生了包括自动驾驶在内的众多领域的发展。

值得一提的是,当时,身处于 AI 发展前沿、曾经在 2010 年获得 ImageNet 竞赛冠军的余凯,已经意识到这篇论文和 AlexNet 的重大价值。

所以,以当事人的身份,余凯代表百度参与了发生在 2012 年冬天的针对 AlexNet 三人组的一场激烈「竞标」——这次竞标在 Google、百度、微软和 DeepMind 四家公司展开,但 Google 成为最终的获胜者。当然,那时候的余凯,还没有意识到,他的长远未来会建立在自动驾驶这条赛道上。

回到 Andrej Karpathy。

那年秋天,当他因为参与 ImageNet 竞赛事务而忙得不可开交的时候,他同时也正醉心于特斯拉量产不久的 Model S,甚至在竞赛结果揭晓的前几天还发布关于 Model S 的推文——当时,他也在推特上表达了对马斯克的赞赏。

那时候的他,一定完全想不到:他会在 5 年之后成为特斯拉 AI 团队的负责人,并且直接向马斯克本人汇报。

马斯克的无奈妥协

2013 年,当马斯克决定带领特斯拉进入到自动驾驶赛道的时候,他发现自己找不到一条称心如意的法子,只能做出无奈妥协。

马斯克之所以想做自动驾驶,在很大程度上是受到了 Google 的影响。

2013 年 5 月,马斯克首次在采访中谈到,特斯拉考虑采用自动驾驶技术。当时,Google 的自动驾驶汽车项目(Google Self-Driving Car Project)已经启动了三四年时间——对于这个项目,马斯克并不陌生。

毕竟,这个项目是由 Google X 实验室发起,Google X 实验室的主导者是 Google 联合创始人 Sergey Brin;而 Sergey Brin 不仅仅是马斯克的老熟人,也是特斯拉的早期投资人。

基于这样的渊源,马斯克非常了解 Google 所采用的技术方案,并且曾经就自动驾驶技术与 Google 团队进行过多次探讨。

当时,在 Google 自动驾驶汽车项目所采用的方案中,算法+计算芯片+传感器是一个基本的范式。其中,算法本身是 Google 自研;在计算芯片层面,Google 采用的是来自英特尔的 Xeon 处理器和一颗来自 Altera 的 Arria FPGA(用于机器视觉)。而在传感器层面,Google 则采用了成本非常昂贵的激光雷达。

Google 的目标,就是要实现 L4 级别的完全自动驾驶功能。

对于实现完全自动驾驶这件事,马斯克是认同的,他也觉得自动驾驶是特斯拉在主动安全方面的自然延伸,必须得做。但是,与 Google 所采用的「self-driving」一词相比,马斯克更喜欢「Autopilot」这个词汇。

而对于 Google 采用的激光雷达方案,马斯克更是完全看不上,他表示:

Google 目前感知方案的问题是,它太贵了。最好是采用一个光学方案,比如说带软件的相机,只需用摄像头看一下就能知道发生了什么……我认为特斯拉会自主打造自己的 Autopilot 系统,但它是基于摄像头而非激光雷达。

2013 年 9 月,马斯克公开宣布特斯拉正式加入到自动驾驶赛道中,而特斯拉也开始招聘自动驾驶领域的工程师——马斯克强调,特斯拉将自行内部开发这一技术,而不是采用外部任何其他公司的技术。

但当时的情况是,在做自动驾驶或辅助驾驶相关的领域里,只有两条路径可以走:

  • 一条是 Google 的方案,也就是通过在车端部署昂贵的激光雷达传感器和芯片,然后通过自研算法,直接奔向 L4 的目标——这个方案非常激进,属于典型的互联网公司打法,缺点是这个路径非常昂贵。
  • 另一条是来自以色列的 Mobileye 公司,采用成本更加便宜的摄像头方案,同时将视觉算法集成在芯片中,打包出售给车企——这个方案其实经历了十几年的验证,属于稳扎稳打的渐进式路径,并且当时已经获取了大量的车企客户,但缺点是 Mobileye 的控制欲比较强,限制车企自研算法。

对于当时的马斯克来说,这两种方案都不如意。一方面,他极其在乎特斯拉的量产成本,完全不能接受激光雷达的昂贵价格;另一方面,他又希望通过自研算法尽快实现自动驾驶的目标,而不是受制于 Mobileye 的慢节奏。

综合考虑之下,对成本高度敏感的马斯克,只能做出妥协,无奈地选择与当时地位十分强势的 Mobileye 合作。

2014 年 10 月,在宣布进军自动驾驶一年后,马斯克宣布,自 9 月份发售的 Model S 已经搭载了能够支持 Autopilot 的硬件,在传感器层面包括一颗前向远程雷达、一颗前视摄像头和 12 颗 360 度的超声波雷达;从功能上来说,它能够实现车道保持等功能。

当时,马斯克并没有宣布供应商的身份,后来 Mobileye 主动披露为特斯拉供货的消息,外界才恍然大悟——但其实,双方合作的隐忧已经埋下。

黄仁勋急了

对于马斯克牵手 Mobileye 一事,黄仁勋是看在眼里,急在心里。

这里其实有一个前提,英伟达早已是特斯拉的供应商。实际上,2012 年量产发布的特斯拉 Model S,其 12.3 英寸液晶仪表盘和可触控的 17 英寸中控信息娱乐屏幕,就是运行在两颗不同的英伟达 Tegra 芯片之上。

而黄仁勋之所以有点着急,是因为他也希望英伟达进军自动驾驶,并且成为特斯拉在自动驾驶领域的供应商。

原来,AlexNet 赢得 ImageNet 竞赛冠军之后,在 2012 年到 2013 年之间,有一些团队找到英伟达,表示要通过 GPU 做基于深度学习的计算机视觉。这让黄仁勋意识到,深度学习可能会迎来爆发,而英伟达的 GPU 技术也会因为对深度学习和计算机视觉算法的支持而开辟出一个广阔的市场。

据一位曾经在英伟达工作的工程师告诉我们,黄仁勋一开始并没有看上自动驾驶市场,因为他觉得这块市场的利润率不高,毕竟服务器领域的利润率高达 60% 到 70%。但是,当英伟达在智能手机业务(比如说与小米合作)上折戟沉沙之后,对于端侧部署的执念,让黄仁勋开始寻求不同方向的落地机会,包括安防、机器人、汽车等领域。

结果,在看了一圈之后,考虑到英伟达芯片的高功率问题,黄仁勋还是认定:基于电动汽车的自动驾驶是英伟达在端侧最好的方向。

2013 年 11 月,正值财报电话会议,黄仁勋在谈到汽车业务的发展时表示:

其实考虑汽车的方式,应该是自动化。如今的汽车是联网汽车,因此数字计算比以往任何时候都更加重要。我们的数字集群将为汽车产业提供现代化驾驶体验的机会,而并非是使用传统的机械仪表。

同时,因为 GPGPU 的存在,我们处理器中的可编程 GPU 将会使各种新的驾驶员辅助功能成为可能。基于计算机视觉、驾驶辅助、人工智能等方面的能力,我们将会让汽车变得更加安全,我们让汽车驾驶变得有趣。

因此,从数字集群到信息娱乐系统,再到未来的驾驶辅助系统,汽车内将不仅仅会只搭载一个 GPU。

黄仁勋还表示,特斯拉的电动汽车已经取得成功,未来还会有越来越多的汽车公司会效仿它,并且会积极地在汽车中添加移动计算能力——他还强调,这是英伟达多年来已经投入大量精力的领域,因此会看到持续的成功。

最后,黄仁勋还意味深长地说:The design wins。

于是,在一年多的准备后,英伟达在 2015 年 1 月打响了面向自动驾驶产业的第一枪:发布 DRIVE 品牌和它旗下的两款汽车计算平台,其中 DRIVE PX 基于 Terga X1 芯片和 Maxwell GPU,拥有超过 1 TOPS 的算力,而且可以支持计算机视觉和机器学习技术。

有意思的是,仿佛是为了呼应特斯拉,英伟达在介绍 DRIVE PX 时,也专门用到了「Auto-Pilot」这样的词汇。

不仅如此,在 3 月份的 GTC 2015 上,黄仁勋还专门把马斯克请上台,二人大谈 AI 和自动驾驶的发展。在台上,马斯克表示,AI 有可能比核武器更加危险,但是人们不用太担心自动驾驶,因为这是一种更加狭义的人工智能。

值得一提的是,在 GTC 2015 的舞台上,除了马斯克之外,黄仁勋还邀请了正在读博士学位的 Andrej Karpathy 来作为嘉宾发言——那时候,马斯克和 Andrej Karpathy 还没有来得及认识彼此,但也快了。

马斯克「脚踩三只船」

如果用一句话形容 2015 年马斯克和特斯拉在自动驾驶领域的做法,那就是:「脚踩三只船」。

第一条船,是与 Mobileye 之间的貌合神离的合作。

与 Mobileye 的其他车企客户不同,特斯拉更急于推进自动驾驶技术的发展,它并非是被动采用 Moblileye 的方案,而是于 Mobileye 的方案在数据积累和软件算法层面做了很多独到的增强型创新,让 Autopilot 具备自学习(self-learning)的能力。

举例来说,特斯拉在车内增加了 Fleet Learning 功能,其本质就是在 Autopilot 的动作与人类的实际决策不一致时,能够通过软件记录并学习人类操作;这个功能,已经有点类似于特斯拉后来推出的「影子模式」。

为此,2015 年 4 月,马斯克还专门从微软挖来了一个名为 David Nister 的计算机视觉技术大牛,成立了 Tesla Vision 团队。

然而,马斯克的做法遭到了 Mobileye 的强烈反对。因为 Mobileye 一直采用的是封闭模式,它希望把芯片和算法都控制在自己手中,不希望车企具备自研算法的能力——为此,Mobileye 和特斯拉在 2015 年闹了不少矛盾,强势的 Mobileye 要求特斯拉暂停 Tesla Vision,否则就断供技术支持。

当时,在自动驾驶领域羽翼未丰的特斯拉,不得不暂时屈服于 Mobileye 的打压。

第二条船,就是特斯拉与英伟达的「暗度陈仓」。

据一位前英伟达工程师告诉我们,其实在 2015 年,当与 Mobileye 合作出现冲突之后,马斯克也在希望找到一颗能够提供足够算力、但同时也能够允许特斯拉自研视觉算法的芯片,于是就找到了黄仁勋,看看英伟达能不能搞出来。

对于马斯克的需求,黄仁勋一听之后也非常来劲,他很快就安排工程师在 Tegra 芯片的基础上加上一颗独立 GPU,并且给特斯拉试一试——双方接触了很多次,不断探讨合作的可能。

于是就有了本文开头在 2016 年 1 月份的一幕。

第三条船,就是自研芯片。

毕竟,在与 Mobileye 合作期间,马斯克也是尝到了核心技术受制于人的滋味。

出于技术全栈自研、算力需求增加和垂直整合商业模式的考量,以及未来即将出现的大规模量产出货需求,马斯克决定自研芯片——当然,自研芯片并非容易之事,也需要几年的时间,所以特斯拉也明白,它也需要「第二条船」来满足「第三条船」到来之前的过渡需求。

这意味着,虽然对于与英伟达之间的合作推进,特斯拉当时确实是比较积极,但从长远来看,它与英伟达的「分手」是注定的。

2016 年 1 月,就在马斯克和黄仁勋在特斯拉加州办公室会面的同一个月,有着「硅仙人」之称的芯片大神 Jim Keller 正式入职特斯拉。

踢开 Mobileye,牵手英伟达

2016 年下半年,英伟达终于等来了机会,成为特斯拉的自动驾驶芯片供应商——对于英伟达来说,这是其自动驾驶业务的重大突破。

但其实,很少有人意识到,对于整个自动驾驶行业的发展来说,英伟达和特斯拉达成合作的意义是非常重大的,因为这意味着:一家在自动驾驶领域有进取心的车企,终于能够在市面上找到一颗可编程、可满足其自研算法需求的算力芯片。可以说,整个自动驾驶行业在车企层面的量产落地,从此拥有了算力基础。

为了这个机会,英伟达已经做了大量的软硬件准备。

比如说,2016 年年初,英伟达发布了一系列基于自动驾驶平台的软硬件产品,其中包括 DRIVE PX 2——黄仁勋称之为「世界上第一个面向自动驾驶汽车的超级计算机」。

同时,基于 Drive PX 2 ,英伟达还搭建了一套完整的自动驾驶技术架构 DriveWorks,包括一些在云端和车端训练或推理的硬件框架,以及一系列软件参考方案等。

总之,英伟达不仅仅在硬件上大力提升性能,还在软件和工具等层面做了大量的布局,准备好为包括特斯拉在内的车企进军自动驾驶领域提供保姆式的服务。

这时候,一个意料之外的事故发生了。

2016 年 5 月,一起与 Autopilot 密切相关的 Model S 事故发生,加快了特斯拉与 Mobileye 之间的分道扬镳——两个月后,Mobileye 宣布终止了与特斯拉之间的合作。

对于双方合作破裂,马斯克显得云淡风轻,他表示,Mobileye 的技术发展能力受到了负面影响,因为它必须支持传统汽车公司的数百款车型,导致其工程阻力系数非常高,特斯拉专注于在一个集成平台上实现完全的自动驾驶能力。

其实,这背后还有一个原因是:当特斯拉在 2016 年下半年发布软件 8.0 版本的时候,实际上,软件的需求已经基本上到达了硬件的极限。

当然,马斯克之所以完全不慌,还是因为特斯拉已经跟英伟达暗中沟通了很久。

在提前见证过英伟达自动驾驶计算平台的效果之后,恰逢与 Mobileye 的合作破裂,他并不需要太多犹豫,就选择了英伟达作为新的合作伙伴——考虑到特斯拉已经自研芯片,所以很明显,它与英伟达两年半后的分道扬镳,也是从一开始就注定的。

2016 年 10 月,特斯拉宣布:包括 Model 3 在内的所有量产车型将会搭载能够实现完全自动驾驶(Full Self-Driving)能力的硬件(也就是 HW2.0),其中传感器包括 8 颗环视摄像头、12 颗超声波雷达和一颗前向雷达。

与此同时,HW2.0 还内置一个算力比前代产品增加了四十多倍的计算设备(即英伟达 DRIVE PX 2),它能够运行特斯拉最新开发的面向 Autopilot 进行视觉、超声波和雷达融合处理的神经网络。

需要说明的是,虽然也叫 DRIVE PX 2,但特斯拉所用的这个版本是它与英伟达联合定制的。

同时,由于去除了对 Mobileye 在软硬件层面的所有依赖,搭载英伟达计算平台的特斯拉新车型,甚至暂时不具备搭载旧款硬件车型所拥有的一些基本功能,比如说自动紧急刹车等——也就是说,硬件基础有了,特斯拉还需要补上软件和 AI 方面的能力。

这时候,马斯克需要一个得力的助手,来帮助他搭建 AI 算法。

02当自动驾驶遇见 Transformer

星光璀璨的重要时刻

其实,与马斯克共事,一直是一件难事,尤其是对于特斯拉的 Autopilot 团队而言。

毕竟,对于 Autopilot,马斯克采取的是极为激进的态度,他希望特斯拉早日能够实现「比人类驾驶还要安全」的自动驾驶;因此,他对这个团队保持了极高的期待,也给了团队巨大的压力——这造成了在某些情况下 Autopilot 团队人员更替比较频繁。

2017 年 1 月,特斯拉从苹果公司挖来了一个大神级的软件工程师 Chris Lattner,担任 Autopilot 软件副总裁,但他待了不到半年就离职,原因是觉得「特斯拉不适合自己」。

于是马斯克让「硅仙人」Jim Keller 同时负责软件。

不料,2017 年 3 月,此前马斯克从微软挖过来的 Tesla Vision 负责人 David Nister 也在 2017 年上半年离职——他后来加入到英伟达负责自动驾驶相关业务。

于是,2017 年 6 月,马斯克请来了 30 岁的 Andrej Karpathy 加入特斯拉,担任 Tesla Vision 与 AI 团队负责人,并直接向马斯克本人汇报——后来的事实证明,这是特斯拉在 Autopilot 人才招募方面做出的一个最正确的决定。

Andrej Karpathy 能够入职特斯拉,得益于马斯克的慧眼识珠。

前面提到,Andrej Karpathy 在 2012 年就崇拜马斯克,但在很长一段时间里,他与马斯克没有直接交集。等到 Andrej Karpathy 与马斯克真正有机会大量接触,已经要归结到 OpenAI 成立之后了。

OpenAI 成立于 2015 年底,它是马斯克因为担心 AI 变得危险、避免 AI 被 Google 这样的大公司垄断而与 Sam Altman 等人发起成立的开源组织,由马斯克和 Sam Altman 担任联合主席。

除了他们二人之外,马斯克还为 OpenAI 请来了 Ilya Sutskever 作为研究总监,Ilya Sutskever 就是当年发表 AlexNet 论文的三位作者之一(他选择加入 OpenAI,也是马斯克反复劝说的功劳——后来,Ilya Sutskever 成为 GPT 取得成功的关键角色)。

当然,Andrej Karpathy 也是 OpenAI 的创始成员之一。

在 OpenAI 期间,Andrej Karpathy 继续做模型训练方面的研究,但同时也会帮助马斯克做一些关于特斯拉 Autopilot 在 AI 和算法层面的咨询工作。有一段时间,Andrej Karpathy 忽然觉得很焦虑,他希望做一些 AI 算法产业落地方面的工作,就在看一些类似于创业公司的新机会。

这时候,恰好 David Nister 决定离职去英伟达,于是马斯克就主动找过来了——按照 Andrej Karpathy 在采访中的说法,马斯克询问他是否有兴趣加入特斯拉并领导整个计算机视觉团队和 AI 团队。

对此,Andrej Karpathy 的表述是:

其实 Elon 是在一个非常正确的时间找到了我,我当时也在看新机会,就觉得这个机会非常完美。我觉得自己可以搞定,觉得自己可以在这里做出贡献。这确实是一个非常有影响力的机会。

我喜欢这家公司,我也喜欢 Elon,所以我觉得那是星光璀璨的重要时刻,那一刻,我也强烈地感觉到那是我应该做的事情。

值得一提的是,当 Andrej Karpathy 入职特斯拉后,他才发现,那时候特斯拉只有两个人在训练深度神经网络,用 CNN 算法做一些非常基础的视觉工作——不仅如此,由于刚刚摆脱对第三方供应商 Mobileye 的软硬件依赖,特斯拉还需要重新建立自己的计算机视觉系统。

对于 Andrej Karpathy 来说,这几乎相当于从零开始。

因为数据问题,睡不着觉

在 Andrej Karpathy 加入后的一年多时间里,他主要做了两方面的事情:一个是算法,一个是数据。

先来看算法方面。

2017 年 11 月,Andrej Karpathy 在博客平台 Medium 上写了一篇标题为《软件 2.0》的文章,其核心思想是:

在软件 2.0 概念下,人们并不是通过 C++ 等语言手工编写代码,而是通过神经网络生成代码,编程范式转变为收集训练数据并设定训练目标,算法工程师需要将数据集、目标设置、架构设置通过编译过程转化为表示神经网络权重、前馈过程的二进制语言。

在这样的理念下,Andrej Karpathy 开始带领团队对 Autopilot 本身进行面向软件 2.0 的改造。

其实,在 Andrej Karpathy 刚刚加入到特斯拉的时候,Autopilot 的整个软件栈大部分都是基于软件 1.0 来实现,当然也有一些 CNN 网络在做一些基础的视觉识别工作——而在 Andrej Karpathy 加入后的一年多时间里,Autopilot 的整个软件栈开始大幅度拥抱软件 2.0,并且占据的范围越来越广,而软件 1.0 所占据板块也不断缩小。

从结果上来说,Andrej Karpathy 在算法层面所做的工作,一大部分是通过不同的神经网络算法对 8 个摄像头的画面进行多任务和大规模的特征提取和识别,这个算法在这次演讲之后持续不断地演进,后来在 2019 年下半年被命名为 HydraNet(九头蛇网络)。

再来看数据层面。

其实,比起算法,数据问题是让 Andrej Karpathy 更加头疼的一个问题。关于这一点,Andrej Karpathy 还做了一个非常清晰的对比:

在做博士论文时,之所以难以入睡,绝大多数都是因为算法问题,极小部分的原因是因为数据集问题;而到了特斯拉之后,难以入睡的原因,25% 是算法问题,75% 是因为要处理数据集。

因为一开始,数据处理的主要工作就是数据标注。但是,特斯拉卖的车越多,就意味着数据量非常大,几乎可以说是无穷无尽的,所以,用有限且成本颇高的人工标注方法,根本无法解决这个问题。

那么,Andrej Karpathy 是如何解决这个问题的?他给出的答案是:数据引擎(Data Engine)。

所谓数据引擎,实际上更像是一个数据集循环标注系统。简单来说,就是基于一个已经人工标注好的数据集,对算法进行训练,然后再通过云端下发部署到拥有影子模式(Shadow Mode)的车队中,如果影子模式下车端发现了异常情况(比如说司机实际操作和算法所预测的操作不符合),则将异常情况的数据回传到云端,并通过整个庞大的车队收集类似的数据,通过人工标注后,再加入到数据集中,然后再次对算法进行训练,再次进行车端部署……如此循环反复,从而实现一个数据标注和训练的大循环。

从整体上来看,特斯拉的数据引擎是一个整体化自动进行、少量人工参与的数据标注系统——这个持续进化的数据引擎,成为了特斯拉整个自动驾驶方案的基础设施。

2018 年 10 月下旬,在 Andrej Karpathy 入职 16 个月后,特斯拉在美国面向普通用户发布了 Navigate on Autopilot(简称为 NOA)功能,这个功能主要是在高速场景下实现导航辅助驾驶——这是 Andrej Karpathy 带领团队在自动驾驶领域赋能特斯拉的第一个重大成果。

不过,伴随着高速 NOA 的发布,Andrej Karpathy 发现当时的特斯拉车型出现了端侧算力受限的问题,这意味着:随着 Autopilot 整个基于神经网络的软件栈和数据处理越来越复杂,车端算力已经开始比较吃力。

也就是说,特斯拉第二代硬件平台(HW2.0)和后续升级平台(HW2.5)所采用的英伟达算力平台虽然比较强大,但在实际场景中,它已经开始无法满足特斯拉随神经网络算法和数据迭代复杂度而日益变大的算力需求。

好在这时候,特斯拉自研芯片也差不多出炉,并且准备好替代英伟达的算力芯片。

英伟达留不住特斯拉的心

面对被特斯拉抛弃的风险,英伟达一直在做其他准备。

其实,在把 Drive PX 2 成功地落地到特斯拉上之后,黄仁勋一直在紧锣密鼓地准备下一代产品;但与此同时,英伟达花了大量的功夫,不断拓展汽车领域「朋友圈」。到 2017 年 5 月,英伟达已经与奥迪、戴姆勒、大众集团和丰田等一众汽车巨头就 DRIVE PX 平台达成合作关系。

事实上,根据英伟达在 GTC 2017 大会上的统计,与英伟达就自动驾驶解决方案达成合作关系的公司达到了 225 家——除了汽车企业、零部件供应商、互联网公司和图商之外,还有一些创业公司。

值得一提的是,随着 Google、特斯拉和英伟达等巨头在自动驾驶领域的布局,在自动驾驶领域也诞生了一波创业热潮,其中有一大波是来自中国的自动驾驶创业公司,它们中有不少是在算法领域进行布局,意图实现 L4 级别的自动驾驶,因此在底层硬件层面也需要英伟达的支持。

对此,英伟达毫不含糊地如数拥抱,并且增加了对中国市场的重视程度。

在 2017 年 9 月份的 GTC 中国大会上,黄仁勋宣布,通过最前沿的深度学习和计算机视觉计算设备,英伟达可以让创业公司也开发它们的算法和软件。在会上,黄仁勋表示,已经有 145 家创业公司在开发基于英伟达 DRIVE 平台的自动驾驶汽车、卡车、高精地图以及服务。

值得一提的是,在这些创业公司中,有不少是中国公司或者华人在美国创办的公司,它们吸纳并培养了大量的人才,为后来自动驾驶在中国市场通过车企进行量产落地奠定了重要基础。

回过头来看,客户越多,英伟达当然是越开心。

因此,当 2017 年底特斯拉对外公开自研芯片计划的时候,英伟达丝毫不慌——很快,在 CES 2018 上,黄仁勋放出了英伟达在自动驾驶领域的一枚重磅产品:全新的自动驾驶 SoC 平台 DRIVE Xavier。

与 DRIVE PX 2 相比,DRIVE Xavier 是一颗集成了多个模块的自动驾驶 SoC,在计算性能显著提升的同时,功耗也减少了很多。值得一提的是,英伟达在 DRIVE Xavier 的前期研发上已经投入了几十亿美元。

同时,英伟达还在这次活动中再次扩大「朋友圈」,比如说宣布与 UBER 合作打造可自动驾驶的 UBER 车型(RoboTaxi)。此时,英伟达 DRIVE 的业务方面已拥有超过 320 个合作伙伴,涵盖消费级汽车、卡车、交通服务、供应商、地图、传感器、创业公司、学术机构等方方面面。

此外,英伟达还在这次活动中完善了它的自动驾驶软件布局,推出了自动驾驶模拟系统、车内应用平台、AR 平台等。可以说,通过这一通操作,英伟达成功构建了从底层芯片到上层应用的整个自动驾驶软硬件产品体系。

但这个体系再完整,也留不住特斯拉的心。

2018 年 8 月,在一次财报电话会议中,黄仁勋回答了关于「特斯拉自研芯片」的问题。他首先谈到了自动驾驶芯片和软件栈的难点,然后对马斯克隔空喊话说:如果最终不是你们想要的样子,可以给我打个电话,我会非常乐意帮忙。

对此,马斯克也在推特上回应说:英伟达做出了非常棒的硬件,对黄仁勋和他的公司有很高的敬意;但我们的硬件需求非常独特,需要跟我们的软件紧密地匹配。

言外之意,你英伟达的东西再好,也不符合我特斯拉的需求——可见,马斯克已决定与英伟达彻底分道扬镳,没有任何挽留的可能性。

终于,2019 年 4 月,在特斯拉自动驾驶日上,被马斯克称之为「FSD Computer」的 HW3 正式发布,订阅了 FSD 软件包的用户可以免费升级——按照马斯克的说法,这是「世界上专门面向自动驾驶之目的而设计的最先进的计算机」。

而伴随着 HW3 的问世,特斯拉在自动驾驶算法层面的最大挑战,才刚刚开始。

FSD 受挫,BEV 亮相

2019 年,是马斯克在 FSD 项目上非常受挫的一年。

为了赶 FSD 年底完成的进度,马斯克给了 Autopilot 团队很大的压力,并且进行了团队调整。结果是,Autopilot 软件工程团队的一些重量级工程师纷纷在 2019 年离职,而 Autopilot 软件副总裁 Stuart Bowers 也被迫离开——好在,特斯拉 AI 负责人 Andrej Karpathy 还在。

最终,FSD 在 2019 年还是跳票了。

那么,在实现过程中,FSD 究竟遇见了什么难以克服的障碍?答案是:基于视觉图像的 3D 感知。

事实上,人类在驾驶过程中完全是靠双眼来感知周围环境和道路的;而人的眼睛所看到的世界就是基于 3D 空间的——基于这样的认知,对生物学充满兴趣的马斯克和 Andrej Karpathy 都坚持认为:特斯拉完全可以利用 AI 的能力来实现基于摄像头图像的 3D 感知,而不是采用激光雷达。

但二人拒绝使用激光雷达的原因,其实有所不同:马斯克更多是基于成本考量,而 Andrej Karpathy 的选择主要是来自于对「通过 AI 来对图像进行 3D 感知」这一技术路径的信心。

然而,通过 2D 图像进行 3D 感知,这是一条非常难的路。2019 年 10 月,马斯克在接受 Lex Firdman 的采访时,专门谈到了 FSD 实现过程中的最大挑战,他表示:

最困难的事情,是在向量空间中精确地表达物理目标。比如说,通过视觉输入,一些超声波和雷达的输入,然后可以创建周围物体的精确向量空间表达。一旦有了精确的向量空间表示,对车辆的控制是相对容易的。

面对这个难题,Andrej Karpathy 把目光瞄准了 BEV(Bird's Eye View,鸟瞰图视角)。

需要强调的是:在计算机视觉和自动驾驶领域,BEV 从来都不是一个新鲜词汇。一个典型的案例是,早在 2014 年,一篇标题为「Automatic Parking Based on a Bird’s Eye View Vision System」的论文就已经发表,该论文的核心内容是:通过四颗鱼眼摄像头感知环境信息,并来构建一个 BEV 视觉系统,并由此实现自动泊车。

实际上,在构建 BEV 的过程中,Andrej Karpathy 做了不少尝试。

比如说最初是用基于软件 1.0 的 Occupancy Tracker,它是将 HydraNet 从 2D 图像识别出来的各个特征映射成 3D 特征,然后将来自各个摄像头的 3D 特征在同一个时间维度上「缝合」起来,从而生成一个基于 BEV 视角的 3D 地图。

但 Occupancy Tracker 终究是基于软件 1.0,很快,它被基于软件 2.0 的 BEV Net 替代。

BEV Net 是 Andrej Karpathy 通过基于软件 2.0 来实现基于 BEV 视角而打造的一个神经网络,其本质上基于 CNN 和 RNN 等神经网络模型来实现的——根据 Andrej Karpathy 的公开演示,与基于 Occupancy Tracker 相比,基于 BEV Net 的 Smart Summon(智能召唤)功能,在感知功能的效果上会好一些。

值得一提的是,Andrej Karpathy 还提到过一种 Pseudo LiDAR(伪激光雷达)的方法。

最早提出是 Pseudo LiDAR 方案的,是 2018 年一篇论文《Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving》,这篇论文介绍了一种方法:基于卷积神经网络的内部工作原理,将基于图像的深度图转换为伪激光雷达表示——本质上是模仿激光雷达信号。

根据 Andrej Karpathy 在公开演讲中的说法,使用纯视觉技术和伪激光雷达方法,加上与自监督学习的配合,其对 2D 图像的 3D 感知效果与真实情况的差距正在快速缩小,这一点也在特斯拉内部得到了证实。

总体来看,在通过神经网络构建 BEV 的过程中,Andrej Karpathy 做了不少方法尝试——这些方法往往来自于学术研究领域,并非是由特斯拉原创,但却总是能够被 Andrej Karpathy 注意到,并快速在特斯拉的工程实践中进行验证。

一位自动驾驶算法从业者告诉我们,其实特斯拉和 Andrej Karpathy 都应该感谢 AI 领域的开源,他表示:

过去十年间,其实是 AI 迎来大发展的时代。尤其是在深度学习的大框架下,CNN、RNN 以及后来的 Transformer,不同的技术方案在学术界和产业研究领域层出不穷,不少成果能够快速向产业界转化。

同时,这也是一个 AI 开源的时代,许多成果以论文的形式公开发表,因此大家也都能够快速跟进。

遗憾的是,这些方法后来都被特斯拉证明不可行。

Transformer 来了!

2020 年,特斯拉对 FSD 的算法架构进行了一次彻底的重写。

为什么要重写架构?

原因是,FSD 遇见了一个难以忽略的硬件限制问题:在 Andrej Karpathy 加入特斯拉后的两三年时间里,特斯拉的销量增加,要实现的自动驾驶功能也越来越复杂,这意味着特斯拉所要处理的数据体量也在急剧增加,模型必然会变得复杂——但是在车端,即使是升级到 HW3,FSD 计算机所拥有的 144 TOPS 的算力依旧是固定且有限的。

换句话说,伴随着特斯拉数据体量的指数级扩大,在车端算力固定且有限的情况下,必然要对在车端进行推理的算法的能力和效率提出更高的要求——也就是说,这个部署在车端的算法框架,不仅仅要很好地实现从 2D 图像识别到 3D 向量空间构建(其中重要一步是 BEV)的过程,而且不能有丝毫的延迟(因为生命攸关),而且最好也不要消耗太大的功率。

然而,即使是采用此前所说的 BEV Net 的方案,也无法在数据量急剧增加的情况下满足上述要求——这意味着,它的效率不高,无法突破车端的硬件限制。

正因为如此,马斯克才于 2020 年 8 月在推特上说,Autopilot 被困在了一个局部最大值(Local Maximum)中,标记了时间上不相关的单摄像头图像(实际上是采用了业界常说的后融合方案,相对来说效率不高)。

简单来说,以往的算法架构不行,碰撞到车端算力的天花板了——所以,这种情况下,只能推倒重来,重写架构。

那么,怎么写?

这里就涉及到第二个问题,在重写自动驾驶架构的过程中,为什么要引入 Transformer?

其实,Transformer 源自于 Google 研究团队在 2017 年 4 月发布的一篇论文《Attention is All You Need》,它在被提出之后的很长一段时间里,被广泛应用于自然语言处理领域,包括来自 OpenAI 的大名鼎鼎的 GPT(Generative Pre-trained Transformer)。

后来的事实证明,Transformer 在计算机视觉领域也能发挥自己的实力,而且在某些任务上比 CNN 等计算机领域常见的算法更好用、效率更高,尤其是在处理大规模数据量的场景下——比如说,在特斯拉的 BEV 构建中,与 CNN 等神经网络相比,Transformer 能够更好地在海量图像数据中识别道路关联关系,从而更有利于构建向量空间。

那么,Andrej Karpathy 是如何在特斯拉自动驾驶算法体系中引入 Transformer 的?

此处不得不提到一个有趣的巧合:2020 年初,正当 FSD 的算法构建开始遇到瓶颈的时候,在计算机学术界的反复探索中,Transformer 开始在计算机视觉领域发挥出一些意想不到的作用——这受到了 Andrej Karpathy 的密切关注。

举例来看,2020 年 5 月,Andrej Karpathy 在 Twitter 上转发了一篇由 Facebook 研究院发表的论文《End-to-End Object Detection with Transformers》,该论文提出了一种通过 Transformer 进行端到端图像目标检测的方法,而且非常有效果。

2020 年 6 月,Andrej Karpathy 在 Twitter 上发表自己对 GPT 和自动驾驶发展的未来畅想:Autopilot 的终极形态,应该是将车辆管理局手册(DMV Handbook)的内容输入到一个「大型多模态的 GTP-10」中,然后喂给它过去 10 秒的传感器数据,使它跟着走。

很明显,从当时的情况来看,Andrej Karpathy 密切关注着 Transformer 和 GPT,并且将其与 Autopilot 相关联。几乎可以由此确认,在那个时间点,Andrej Karpathy 已经在尝试把 Transformer 用于 Autopilot 的算法架构中——这已经是架构重写的一部分了。

2020 年 8 月,马斯克在推特上表示:

FSD 的改进将是一个巨大的飞跃,因为这完全是一个基本的架构重写,而不是增量调整。我在我自己的车里亲自驾驶最先进的 Alpha 版本。在家庭和工作之间几乎零干预。6 至 10 周内限量公开发布。

这意味着,在这个时间节点,FSD 的架构重写已经初现成果——两个月后,特斯拉终于首次面向美国的极少部分用户推送了 FSD Beta 的测试版本。

到了 2021 年 8 月 19 日,在特斯拉 AI Day 上,Andrej Karpathy 非常系统地谈到了特斯拉自动驾驶在感知层面的最新成果。最让业界津津乐道的,是一张关于特斯拉 AI 利用 8 颗摄像头实现 2D 图像到 BEV 转换的整个全新软件架构图——其中,Transformer 模型的引入成为最大亮点。

一个从事自动驾驶算法的行业专家告诉我们:

在观看特斯拉 AI Day 的时候,我感觉比较震撼的一点是:当我们自己在尝试很多新的方向时,虽然我们也看了几乎所有的论文,看到一些好的方向,也敢于去尝试一些包括 Transformer 在内的新技术,但是再去看特斯拉,会发现他们已经走到这个地步了,说明这个方向已经非常正确了。

这一方面是特斯拉 AI Day 的明星效应,另一方面也说明,在走向工程化落地的路上,选择本身也是需要勇气的。

而伴随着这次 AI Day,Andrej Karpathy 也迎来了他在特斯拉职业生涯的高光时刻。

03自动驾驶量产落地的应许之地

遇见中国造车新势力

正当马斯克为 FSD 算法的实现而愁眉不展的时候,英伟达自动驾驶业务的落地也一度遭遇挑战——幸运的是,它遇见了有进取心的中国新势力车企。

这与整个自动驾驶行业当时面临的商业落地困境密切相关。其实,在 2018 年到 2019 年,整个自动驾驶创业陷入到一片寒冬之中;作为自动驾驶算力基础设施的提供者,英伟达也不可避免地受到了大环境的影响,其股价也在 2018 年下半年到 2019 年出现了回落的情况。

不过,创业公司们所鼓吹的 L4 固然是遥不可及,但是车企们所采用的渐进式 L2 路线依旧是大有可为的,毕竟,财力雄厚的汽车厂商们也需要拥抱科技的趋势,尽管它们的节奏不那么快。所以,自然而然地,英伟达又开始从 L2 级别的渐进式路线出发,关注具备量产能力的车企。

这时候,英伟达发现,除了特斯拉,符合其落地需求的车企,只能在中国找到。

这背后的原因是,尽管当时英伟达与一众国际汽车巨头达成了合作关系,但是这些巨头在自动驾驶方面的布局更多停留在研究层面,而对量产落地的热情并不算高,投入并不大;不仅如此,这些车企在软件和算法层面的能力也相对比较欠缺,短期内也不具备推进自动驾驶大规模商业落地的能力。

对比来看,那段时间里,反而是处于创业阶段的中国造车新势力品牌,尤其是小鹏、蔚来和理想这三家,一直非常积极地寻求在智能化层面的突破——尤其是在智能驾驶层面,虽然它们在起步阶段上也都采用了 Mobileye 的方案,但它们也在发展过程中不断强调自研自动驾驶算法的重要性,从而打造自身的核心竞争力。

恰好,基于自身业务的开放性,英伟达不仅不限制车企自研自动驾驶算法,而且还为它们提供了很好的底层和软件支持(当然,英伟达的方案也不是没有缺点,那就是贵)。

于是,这些具备较强软件和算法能力的中国新势力车企,成为了英伟达自动驾驶商业落地的重要合作伙伴——反过来看,如果没有英伟达提供的算力基础和开放商业模式,这些新势力车企在寻求算法自研时也并不会那么容易。

在这些新势力车企中,在自研算法层面最为激进的,是小鹏汽车。

也因此,小鹏早在 2018 年 11 月就宣布与英伟达基于 DRIVE Xavier 计算平台的合作——到了 2020 年 4 月,搭载了英伟达 DRIVE Xavier 自动驾驶计算平台的小鹏 P7 终于上市。

需要说明的是,在这次的落地项目中,英伟达提供了芯片和底层的软件技术支持,而小鹏汽车作为主机厂,则全面掌握了从感知到决策层面的自动驾驶算法和数据。

至此,继英伟达 DRIVE PX 2 在特斯拉上落地之后,它的迭代产品 DRIVE Xavier 终于在一台量产车上成功落地。

为何 Transformer+BEV 成为范式?

2020 年前后,伴随着 AI 和自动驾驶技术的落地逐渐与中国汽车行业电动化、智能化的发展趋势相融合,以及中国造车新势力的出现,中国市场越来越成为自动驾驶落地的一片热土。

一个典型的案例是,2019 年 12 月,在举行于苏州的英伟达 GTC CHINA 大会上,黄仁勋首次对外宣布了新一代的自动驾驶汽车平台 DRIVE Orin 芯片,它同样是一颗 SoC 芯片,算力是上一代 Xavier 系统级芯片性能的 7 倍,理论上能够支持 L2 到 L5 的扩展。

从商业落地的角度来看,与上代产品相比,DRIVE Orin 被中国的造车新势力们接纳的速度要快得多。

2020 年 4 月,小鹏汽车宣布与英伟达继续合作,其下一代智能纯电车型将继续搭载英伟达的 AI 自动驾驶计算平台;随后理想汽车也宣布将在 2022 年推出的全尺寸增程式 SUV 上使用 DRIVE Orin 芯片。而蔚来则更加简单直接,它在后来发布的 ET7 车型中,直接宣布搭载 4 颗 DRIVE Orin 芯片,最高可实现 1,016 TOPS 的算力。

至此,中国造车新势力的三家代表车企「蔚小理」,都敲定了英伟达 DRIVE Orin 芯片的量产落地项目。

这里需要说明的是,在英伟达与「新势力车企」达成合作的同时,中国本土已经出现了一批为自动驾驶提供算力的芯片创业公司,其中的佼佼者正是(曾在 2012 年参与「竞标」 AlexNet 三人组的)余凯在离开百度后创办的地平线——它的芯片产品在 2020 年成功落地在长安汽车上,后来又在 2021 年搭载在理想 ONE 上,并为理想汽车的高速 NOA 功能提供了算力基础。

当然,在创业公司之外,还有一家不可忽略的玩家是中国科技巨头华为。

实际上,华为在 2019 年成立了华为智能汽车解决方案 BU,并且将自身在芯片、云计算、软件等各个领域的能力面向智能汽车进行赋能,而智能驾驶成为重中之重——其中,基于华为自研昇腾 AI 芯片的 MDC 智能驾驶计算平台成为华为的「杀手锏」。

然而,算力只是基础,要真正地发挥算力,需要的是算法层面的突破。

巧合的是,到了 2021 年下半年,正当这些车企们的自动驾驶部门都在密集开展自己的自动驾驶算法研究的时候,特斯拉在 AI Day 2021 中谈到的 Transformer + BEV 方案横空出世,开始在自动驾驶领域引发讨论、关注、跟随。

这里需要强调的是,特斯拉并非是唯一一家注意到 Transformer 在计算机视觉和自动驾驶领域潜力的公司,实际上,在大洋彼岸的中国,也有不少公司盯上了 Transformer,比如说毫末智行在 2021 年 3 月其实就已经开始尝试将 Transformer 应用于感知算法中。

对此,一位自动驾驶芯片的从业者评价称:

与国内的企业相比,特斯拉真正强大的一点,是它能够把最前沿的技术拿过来做工程化,比如说 Transformer。

也就是说,很多技术方案都是来自于学术界的原创,有靠谱的,也有不靠谱的;但是他们总是能够用最快的速度把这些论文拿到工业场景中去验证,并且让它们的价值发挥出来。其他公司的话,如果去把数百篇学术论文去落地验证,可能代价比较大。

而特斯拉做完之后,实际上是帮助整个行业做了验证工作。这是它对行业的贡献。

于是,得益于 2021 年特斯拉 AI Day 对于整个行业在算法层面的启发,Transformer 也在大洋彼岸的中国受到重视,不少车企和算法公司也纷纷开始基于它来做算法改进。

实际上,在特斯拉之后,包括小鹏、理想和蔚来在内的车企和类似于华为、毫末智行这样的自动驾驶方案提供商,都对自己的算法架构进行了一次重写,并且在重写过程中采用了类似于特斯拉所采用的 Transformer 和 BEV 的技术路径——值得一提的是,由于后发优势,「蔚小理」三家架构重写所用的时间都比特斯拉短。

有意思的是,在意识到 Transformer+BEV 在自动驾驶量产落地方面的重要性之后,英伟达、地平线等芯片供应商也都基于 Transformer 做了大量基于软件框架适配层面的工作,比如说英伟达为 Transformer 开发了一款专用引擎,而地平线提出了基于 BEV+Transformer 的端到端的算法算法框架。

由此,Transformer+BEV 的方案,成为一众车企们在自动驾驶走向量产落地的过程中纷纷采用的一条范式路径。

虽已分道扬镳,也能不时重逢

2022 年,在量产落地成为主旋律的大背景下,自动驾驶也在不断寻求新的技术创新突破。

在量产落地层面,蔚来、理想和小鹏都一致选择了英伟达 DRIVE Orin 芯片,并在 2022 年落地了各自的关键车型——就这样,在智能化开始逐渐触及到用户购车决策的情况下,英伟达的 DRIVE Orin 已经牢牢占据了智能驾驶计算平台的高端位置。

尽管如此,英伟达并不停留于此。

2022 年 9 月 20 日,英伟达面向汽车智能化领域发布了下一代的 SoC,命名之为 DRIVE Thor。这是一颗单芯片算力能够达到 2000 TOPS 的性能怪兽——有意思的是,Thor 专门增加了对 Transformer 模型的支持 。

伴随着 DRIVE Thor 的发布,英伟达不惜直接让在 GTC 2021 上就已经发布的 DRIVE Atlan「胎死腹中」。这背后的其中一个原因是:汽车行业智能化和智能驾驶的算法演进,太快了。

同时,DRIVE Thor 的发布,其实考虑到了一个汽车行业的大背景:伴随着电动化、智能化的大趋势,汽车的电子电气架构正在快速变化,从分布式计算走向域融合乃至中央计算。

因此,Thor 的定位是一个汽车中央计算平台,集成了智能汽车领域所有 AI 计算需求,包括智能驾驶、主动安全、智能座舱、自动泊车、车载操作系统、信息娱乐等。

有意思的是,在 Thor 发布的当天,不甘落后的极氪宣布进入到 Thor 的合作名单,预定了 2025 年的量产首发。

当然,在算力持续突破的同时,算法层面也迎来了新的突破。

就在英伟达发布 Thor 十天之后,特斯拉举行了 2022 年度 AI Day。其中在感知算法层面,占用网络(Occupancy Network)开始成为一个热门词汇,其核心能力是实现对通用障碍物的识别——毕竟,仅仅拥有 BEV 是不够的。

在占用网络之外,特斯拉还介绍了一个在 2020 年就被提出来的算法 NeRF,它可以与占用网络高度配合,实现在车辆周围环境的 3D 渲染。此外,在 2022 年 AI Day 上,特斯拉还花了不少时间介绍了在自动驾驶感知之外的一些关于规划等任务的新算法。

值得一提的是,2022 年的 AI Day ,站在台上代表特斯拉演讲的,已经不再是 Andrej Karpathy。

原来,Andrej Karpathy 本人已经在 2022 年 3 月提出休假申请,后来又在数个月之后宣布从特斯拉离职。关于离开特斯拉,Andrej Karpathy 自己给出的原因是自己不喜欢做管理,而是希望专注于 AGI。

那么,除此之外,Andrej Karpathy 离职是否还会有别的原因呢?

一位做自动驾驶的工程师告诉我们:

Andrej Karpathy 在特斯拉期间是把自动驾驶做到了 0 到 70 分的水平,这需要大量的创造性,也是像 Andrej Karpathy 这样的顶级 AI 人才更愿意去做的事情;但是在 BEV+Transformer 之后,特斯拉在自动驾驶方面要做的就是 70 分到 80 分这样的工作,比如说解决各种各样的 Corner Case,这在 Andrej Karpathy 看来并不是一件性感的事情,所以他就选择离开。

另外一位从事于自动驾驶算法的技术专家告诉我们,Andrej Karpathy 之所以选择离开,还有一个潜在的原因是:他与马斯克在自动驾驶的技术路线方向上可能发生了分歧。

这位专家表示,特斯拉在做的端到端模型,目前来看并不是 GPT;但是其实 Andrej Karpathy 可能更愿意走 GPT 这条路,因为在驾驶场景中,对于语义的理解也是比较关键的,而且这条路也是比较好的一条路线——如果 Andrej Karpathy 坚持做 GPT,但这个事情不被马斯克认可,这可能也是 Andrej Karpathy 选择离开的原因。

当然,无论如何,Andrej Karpathy 的离开,没有阻断马斯克继续探索自动驾驶的步伐。

实际上,推送两年半后,FSD Beta 在用户层面已经积累了越来越多的里程数——但同时,马斯克一方面在推进新一代更加强大的自研 FSD 芯片(即 HW4.0)的落地,另一方面也在算法层面不断关注新的更好的技术路径。

比如说,在以往的 FSD 算法之外,马斯克还在不断关注自动驾驶算法的端到端(End to End)实现,这是一种新的范式,它整体涵盖了感知、预测、规划、控制等环节,更加接近人类驾驶的方式。

有意思的是,马斯克最近多次强调的自动驾驶端到端的理念,正是由一篇发表于 2016 年的论文《End to End Learning for Self-Driving Cars》开端的——而发表这篇论文的,正是当年正在奋力进入到自动驾驶领域的英伟达。

所以,特斯拉和英伟达之间,即使是分道扬镳,也总能不时相逢。

AI 的 iPhone 时刻 & 特斯拉的 ChatGPT 时刻

2023 年 2 月,Andrej Karpathy 宣布了他职业生涯的下一站:OpenAI。

这其实不难理解。毕竟 OpenAI 在 2022 年 11 月底发布 ChatGPT 后,已经成为全世界最受关注的 AI 公司——更重要的是,ChatGPT 的推出,以及 GPT-4 的发布,让整个行业看到了一条能够通向 AGI(通用人工智能)的道路。

而 AGI 一直在 Andrej Karpathy 的关注视野中。

不仅如此,即使是在特斯拉任职期间,Andrej Karpathy 也一直保持对 GPT 的密切关注。一个典型的证据是,在 2020 年 8 月,GPT-3 正风靡全球,而 Andrej Karpathy 在重写特斯拉 Autopilot 算法架构的关键过程中,他依旧用自己的业余时间写了一个小型的 GPT 训练库,并称之为 minGPT。

所以,当 ChatGPT 横空出世之后,Andrej Karpathy 重新回到 OpenAI,完全是有迹可循的。

对于 OpenAI 取得的突破,英伟达也感到非常兴奋——在 2023 年 3 月份举行的 GTC 大会上,面对 ChatGPT 的一夜爆火,黄仁勋表示:

AI 的 iPhone 时刻已经开始。初创公司竞相构建具有颠覆性的产品和商业模式,老牌公司则在寻求应对之策,生成式 AI 引发了全球企业制定 AI 战略的紧迫感。

然而,对于 OpenAI 和 ChatGPT 所引发的这一波 AI 热潮,马斯克的态度是复杂的。

一方面,无论是作为特斯拉 CEO,还是作为推特老板,面对新一轮的 AI 科技热潮,马斯克都选择用自己的方式拥抱,比如说积极购买 GPU。

他在 4 月份的财报电话会议中表示,特斯拉将继续大量购买英伟达的 GPU。不仅如此,马斯克在推特上确认,推特采购了大约 10,000 个英伟达计算 GPU,并表示如今包括特斯拉和推特在内的所有公司都在购买 GPU,以用于计算和人工智能。

但另一方面,虽然 OpenAI 是马斯克本人发起的机构,但是因为种种原因,他与 OpenAI 分道扬镳;而 OpenAI 接受了微软的投资后,也不再坚持开源定位,而变成一家不再「Open」的商业公司——这让马斯克很失望。

在一次采访中,马斯克谈到了特斯拉和 ChatGPT,他表示:

我认为特斯拉也会迎来一个所谓的「ChatGPT 时刻」,就算不是今年,我认为也不会迟于明年。突然之间,300 万辆特斯拉汽车可以自己驾驶……然后是 500 万辆,然后是 1000 万辆…… 

如果我们颠倒彼此的位置,特斯拉来做一个输出结果不弱于 ChatGPT 的大语言模型,而微软和 OpenAI 去做自动驾驶,我们把彼此的任务互换。

毫无疑问地,我们会赢。

可见,在马斯克看来,特斯拉的自动驾驶其实也正迎来一个非常关键的时刻,虽然它更加艰难,但它会像 ChatGPT 一样迎来一次爆发和质变。

其实,在美国本土的自动驾驶赛道上,特斯拉是颇为孤独的——好在,ChatGPT 带来的这波 AI 热潮,在大洋彼岸的中国受到了车企和算法公司们的密切关注,并开始布局。

举例来看:

  • 小鹏汽车表示,GPT 对于小鹏短期、中期、长期都会有影响,长期来看,GPT 在本地部署加云端加成之后,将有助于智能汽车从 L4 向 L5 的方向发展。
  • 蔚来管理层也在多个场合强调,以 GPT 为代表的大模型最好的落地场景就是汽车上。
  • 理想汽车 6 月份宣布在「理想同学」中加入了其自研的 Mind GPT,支持声纹识别、内容识别、方言识别、出行规划, AI 绘画、AI 计算等功能。

在这些备受关注的车企之外,类似于华为、毫末智行、商汤科技这样的自动驾驶算法方案公司也在深入探索 Transformer 和 GPT 在自动驾驶领域的诸多可能——同时,在 Transformer 大框架下,一些自动驾驶领域的最新研究成果也在中国诞生。

值得一提的是,在最新一届的计算机视觉领域国际顶级会议 CVPR 上,诞生了有史以来第一篇以自动驾驶为主题的最佳论文,这篇论文是《Planning-oriented Autonomous Driving》 ,由来自中国的上海人工智能实验室、武汉大学、商汤科技团队联合发表。

这篇论文主要介绍的是 UniAD(Unified Autonomous Driving algorithm framework,一体化自动驾驶算法框架)。具体来说,它将自动驾驶算法中的感知、预测、规划等诸多模块,统合到一个以任务为导向的端到端框架中,该框架同样基于 Transformer。

虽然还没有在量产落地层面得到充分验证,但是就这篇论文的意义而言,一位在某新势力车企进行自动驾驶量产落地工作的业内人士,称之为「自动驾驶之光」。

当然,这一次的「自动驾驶之光」,是属于中国的。

路还很长,还有人在求索

其实,「自动驾驶」作为一个概念,已经存在了近百年。

1925 年 8 月,一辆名为「美国奇迹」(American Wonder)的钱德勒汽车出现在繁华的纽约街头,它没有驾驶员,却能通过一套无线电装置控制车辆,实现加速、减速、转弯等操作——这是人类历史上首辆「自动驾驶」车辆。

此后,它一直在等待一个真正走向现实的落地机会。

2012 年,伴随着 AI 和深度学习的爆发,一批先行者终于看到了自动驾驶在汽车产业中大规模落地的可能性;由此 AI 和自动驾驶相携而行,在过去十年迎来了一个巨大的发展过程。

从 AlexNet 到 ChatGPT,AI 的发展在十年间,迎来了一个「奇点」式的质变。

与此同时,从马斯克宣布特斯拉进军自动驾驶,到如今特斯拉的「ChatGPT」时刻,十年时间里,自动驾驶再也不是一个假大空的、遥不可及的概念——而是伴随着导航辅助驾驶在高速场景和城市场景中的落地,逐渐体现出它的潜在价值空间。

回头来看,这个发展过程,完全可以用「星光璀璨」来形容。

实际上,在 AI 和自动驾驶交织前进的过程中,那些璀璨的星光,是由引领、推动、参与这个行业里的企业和人物共同发出的。其中,技术和商业模式的创新固然是一个关键维度,但我们不能忽略——自动驾驶的规模量产在本质上是一个工程落地问题,所以工程落地的作用也是厥功甚伟的。

这个过程中,以英伟达和特斯拉为代表的美国科技巨头当然扮演了从 0 到 1 的先行者角色;但是,以小鹏、蔚来和理想为代表的中国造车新势力车企和以华为、地平线、毫末智行、商汤科技、大疆车载为代表的自动驾驶方案提供者,则是在学习、跟随和探索中走出了另外一条更加宽阔的自动驾驶落地之路。

当然,目前来看,这条路还很长,还远远看不到尽头,还有可能越来越崎岖,越来越费力——而且已经有人选择了离开。

但是,依旧还有很多人,在这条路上继续求索。

比如说,马斯克依旧在寻找比 Transformer 更高效的算法,英伟达还在探索中央计算架构和端到端的落地机会;而中国的新势力车企和自动驾驶公司们,也在落地实践中不断寻找基于中国实际道路场景下的全新技术路径和商业模式,并且取得了不少突破……

在这些辛勤耕耘的从业者眼中,自动驾驶并不仅仅是一个值得努力实现的技术问题,它也是通过科技发展赋能于汽车行业、帮助人类出行安全的一种方式——甚至于,对于不少工程师来说,它更像是一种信仰。

2022 年 10 月,Andrej Karpathy 在离开特斯拉数个月后,接受了知名科技博主 Lex Firdman 的采访。其中在谈到「自动驾驶的可实现性」时,二人进行了一段非常有意思的对话:

L:这就像,你在爬山,虽然有雾,但你也在不断取得很大的进展。


A:有雾,你正在取得进展,并且你看到接下来的方向是什么。你看着剩下的一些挑战,它们并没有干扰你,它们没有改变你的哲学,而且你没有扭曲自己。你会说,实际上这些就是我们仍然需要做的事情。

也许终有一天,在穿越重重迷雾之后,有一波人会率先爬上「自动驾驶」这座曾经遥不可及的山峰——然后回望自己曾经走过的路,庆幸自己一直在坚持前进。

本文参考资料:

[01] ImageNet Classification with Deep Convolutional Neural Networks
[02] Tesla moves ahead of Google in race to build self-driving cars, FT
[03] Andrej Karpathy on the visionary AI in Tesla's autonomous driving
[04] Software 2.0, Andrej karpathy
[05] Automatic Parking Based on a Bird’s Eye View Vision System
[06] Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving
[07] Attention is All You Need
[08] End-to-End Object Detection with Transformers
[09] End to End Learning for Self-Driving Cars
[10] Planning-oriented Autonomous Driving
[11]  Andrej Karpathy: Tesla AI, Self-Driving, Optimus, Aliens, and AGI | Lex Fridman Podcast
[12] Elon Musk: Neuralink, AI, Autopilot, and the Pale Blue Dot | Lex Fridman Podcast
[13] Tesla CEO Elon Musk CNBC Television Full interview
[14] Tesla Autonomous Day 2019
[15] Tesla AI Day 2021/2022

撰文:308
编辑:大吉

这些也值得读

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存